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基于 Spark 的 并 行 Eclat 算法 
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摘 要 : 通过 对 Spark 大 数据 平台 以 及 Eclat 算法 的 深入 分 析 ， 提 出 了 基于 Spark 的 Eclat 算法 ( 即 SPEclat)。 针 对 串 行 
nts 该 方法 在 多 方面 进行 改进 : 为 减少 候选 项 集 支持 度 计数 带 来 的 损耗 ， 改 变 了 数 
据 的 存储 方式 ; 将 数据 按 前 组 进行 分 组 ， 并 划分 到 不 同 的 计算 节点 ， 压 缩 数 据 的 搜索 空间 ， 实 现 并 行 化 计算 。 最 终 将 
Do 
规模 增长 的 情况 下 ， 具 备 良好 的 可 扩展 性 
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Eclat algorithm based on Spark 


Feng Xingjiea", Pan Xuans+ 
(a. College of Computer Science & Technology, b. Information Network Center, Civil Aviation University of China, Tianjin 
300300, China) 


Abstract: After analyzing platform-Spark and the projection tree algorithm, propose the Projection tree algorithm based on 
Spark (PTBS, Projection Tree algorithm based on Spark) . In view of the shortcomings of the serial algorithm in dealing with 
large-scale data, the method has been improved in many aspects: To reduce the cost caused by the support count of candidate 
itemsets, change the data storage structure; data is grouped by prefix and divided into different computing nodes to compress 
the searching space of data and realize parallel computation. Finally implemente the algorithm on the Spark platform. 
Experiments show that the algorithm can run efficiently when dealing with massive data, and has good expansibility in the face 
of large scale data growth. 
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框架 相 比 ，Spark 编程 框架 是 MapReduce 思想 的 一 种 更 加 精致 
和 高 级 的 实现 , 对 其 过 于 死板 ,IO 密集 , 不 利于 构造 迭代 式 算 
在 数据 挖掘 中 ， 频 繁 模式 挖掘 叫 是 重要 的 研究 方向 之 一 ， ”法 以 及 执行 效率 不 高 等 问题 作出 了 重大 改进 。 在 Eclat 算法 并 
去 人 们 提出 了 一 系列 算法 来 进行 频繁 模式 挖掘 , 如 AprioriD、 行 化 方面 ， 文 献 [9] 提 出 基于 Map /Reduce 的 Eclat 并 行 算法 
FP-GrowthB] 和 Eclatt41。 互联 网 技术 的 飞速 发 展 加 速 了 大 数据 信 ”PEclat(parallel Eclab 算 法。 该 算法 需要 多 次 迭代 运行 Map 
息 化 时 代 的 来 临 ， 随 之 而 来 的 是 数据 量 的 增长 和 计算 难度 的 增 。”/Reduce 任务 , 导致 性 能 较 低 ; 文献 (0 在 Map/Reduce 框架 下 提 
加 ， 传 统 数据 挖掘 方式 已 经 难以 为 继 。 如 今 ， 针 对 大 规模 数据 ”出 了 一 种 基于 前 绥 分 组 的 并 行 挖掘 算法 MREclat， 该 算法 在 对 
集 ， 为 了 产生 具有 一 定价 值 的 数据 信息 ， 算 法 需 对 原始 数据 进 ”候选 项 集 进行 计数 时 ， 利 用 生成 候选 项 集 的 两 个 频繁 (k - 
行 反 复 和 迭代 式 地 运算 ， 这 使 得 数据 挖掘 变 得 异常 繁琐 。 分 布 式 。 ”项 集 对 应 的 事务 序列 求 交 ， 来 计算 候选 项 集 的 支持 度 ， 这 村 
和 并 行 计算 方法 可 以 有 效 地 解决 对 大 数据 量 的 存储 和 运算 的 问 ” 产生 较 大 的 运算 量 ， 且 随 着 数据 量 的 增 大 ， 运 算 量 呈 指数 形式 


0 引言 


洲 


4 
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1) 
会 


二 


二 


题 , 同时 它 还 兼备 资源 共享 、 高 透明 性 、 高 性 价 比 、 高 可 靠 性 、 增长 ， 影 响 了 算法 的 实用 性 ;Qiu H 等 人 则 首次 在 Spark 上 实 
高 度 灵活 性 等 特点 ， 是 处 理 大 数据 集 的 最 佳 策略 。 现 了 Apriori 算法 的 并 行 化 02] 并 提出 YAFIM 算法 ， 该 算法 采 

基于 Hadoop 环境 的 MapReduce5] 和 Spark 云 计 算 平台 是 用 水 平 数 据 结 构 实 现 频繁 项 集 的 挖掘 ， 并 解决 了 串 行 算法 在 
最 为 常用 的 分 布 式 编程 运算 框架 。 近 年 来 许多 学 者 针对 ”Spark 框架 实现 并 行 过 程 中 遇 到 的 诸多 问题 ， 但 是 在 得 到 频繁 


MapReduce 框架 对 传统 算法 进行 了 并 行 化 改造 。 与 MapReduce 项 集 的 过 程 中 ， 需 多 次 遍历 原始 数据 集 ， 将 大 量 的 时 间 浪 费 在 
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重复 遍历 不 必要 的 数据 上 ， 致 使 算法 的 运行 效率 不 太 理想 。 


本 文 提 出 了 
基本 ! 


种 基于 Spark 模型 


BitSet 表示 项 集 对 应 的 事物 序列 ， 
提升 运算 效率 ; b) 将 数据 
到 不 同 的 计算 节点 ， 实 现 算法 并 行 


式 的 改进 ， 


以 期 实现 对 频繁 
按 前 级 进行 分 


以 充分 利用 分 


化 


的 Eclat 算法 ( 即 SPEclat )， 
思路 是 : a) 将 原 数 据 集 的 水 平 结 构 变 换 为 垂直 结构 


上 
大 本 


项 集 生 成 方 
组 ， 并 划分 
布 式 计算 环 


境 多 节点 、 高 性 能 的 特点 。 实 验 结果 表明 , SPEclat 算法 有 着 较 


好 的 可 扩展 
率 更 高 。 


1 ”相关 技术 及 方法 


Spark 并 行 计 算 框 架 
Spark 


1.1 


E 和 加 速 比 , 而 且 比 文献 [ 


0 提 


出 的 MREclat 算法 效 


是 当前 大 数据 领域 最 活跃 的 并 行 编程 模型 开源 项 目 


之 一 ，Spark 云 计 算 平 台 因 


革 具 有 可 通过 基于 内 存 


计算 ， 
适宜 于 处 理 


全 


[uy 


大 规模 数 ] 


据 


具备 RDD 存储 的 持久 化 和 
的 迭代 式 运 算 工 


高 容错 性 等 特 


数据 抽象 为 弹性 分 布 式 数 ] 


Spark 能 够 实现 基于 内 存 计算 的 基础 ， 是 其 可 实现 将 内 
局 集 (RDD )。RDD 是 一 


式 内 存 的 并 行 数据 结构 ， 
空 制 分 区 划分 从 


区 


而 达到 数据 分 布 的 目的 ， 同 时 还 具 


局 能 将 用 户 数据 存储 在 内 存 当中 ， 


的 方式 快速 
点 ， 成 为 最 
存 
种 基于 分 布 


的 特点 : 自动 容错 、 位 


提供 了 丰富 的 内 


操作 ， 不 仅 实 现 了 常规 的 map 函 


函数 , 还 提供 了 更 为 丰富 


这 些 算 子 可 以 将 一 个 RDD 通过 某 一 个 特定 的 操作 转 ] 
个 RDD, 这 是 Spark 基于 内 存 计算 的 基本 方式 。 然而 ， 


备 了 数据 流 


感知 调度 和 可 伸缩 性 .Spark 还 为 RDD 


函数 和 reduce 


的 算 子 , 如 foreach、groupBy、join 等 ， 


蜂 为 男 一 
Spark 最 


重要 的 功能 ， 是 RDD 的 持久 化 (persistence) 操 作 。 数 据 持久 化 


出 频繁 项 集 。 


频繁 项 集 挖掘 算法 ， 算 法 和 


Eclat 算法 
FBT,L, LL ,L,!} 
Eclat (FE ) { 
for all LeF 
mi 
for all a eh 站 


Ws 天 让 


i< J 


if N.sup > min_sup then 


Fu=h UN 


if 志 then 
= Pa = 
Eclat ( ) 
° Fn 
end 


} 


该 算法 


底 向 上 的 搜 


存储 结构 的 不 同 
候选 项 集 支 
会 消耗 大 量 时 间 
1) 
求 与 ; 

以 达到 


行 化 计算 的 


2 


了 BitSet 表示 事务 


，Eclat 算法 无 须 
寺 度 时 ， 如 果 TidSet 规模 庞大 ， 
， 影 响 算法 效率 。 本 文 对 
序列 ， 度 的 计 
2) 将 数据 以 前 级 进行 分 组 ， 
的 。 


chi 


冯 兴 杰 ， 等 : 


在 实际 应 用 中 有 较 好 的 效 
的 伪 代 码 如 下 所 示 


索 方式 与 Apriori 算法 相似 , 但 因数 据 
重复 遍历 数据 集 。 然 而 ， 在 求 
TidSet 的 交集 操作 


将 支持 


InaX 


果 ， 是 一 种 性 


算法 作出 如 


基于 Spark 的 Eclat 算法 一 SPEclat 


iv 合作 期 二 


基于 Spark 而 并 行 Eclat 


a 


能 较 好 的 


下 改进 : 


算 简化 为 对 应 BitSet 
并 划分 到 不 同 的 计算 节点 ， 


在 内 存 当 中 ， 对 于 需要 多 次 迭代 使 用 的 数据 ， 省 去 了 多 次 载 入 
到 内 存 或 存储 到 磁盘 的 过 程 ， 极 大 地 加 快 了 数据 处 理 的 速度 。 本 文 提 出 的 SPEclat 算法 是 一 种 基于 Spark 的 Eclat 实现 ， 
因此 Spark 编程 框架 特别 适宜 于 迭 代 式 频繁 项 集 挖掘 算法 的 实 ”该 算法 分 为 三 个 步 又: a) 将 数据 从 HDFS 中 读 入 并 修改 数据 的 
现 ， 并 行 化 实现 之 后 ， 算 法 的 性 能 会 得 到 非常 大 的 提高 。 存储 结构 ， 过 滤 得 到 频繁 1 项 集 ， 再 把 结果 以 RDD 的 形式 存 
1.2 ”频繁 模式 挖掘 算法 储 在 集群 的 各 个 节点 的 内 存 当 中 ;b) 和 迭代 式 地 对 频繁 项 集 按 照 
1) Apriori 算法 : 相同 前 绥 进 行 划分 ;c) 在 各 个 计算 节点 中 ， 以 自 底 向 上 的 方式 ， 
Apriorim 使 用 一 种 逐 层 完备 搜索 的 迭代 式 算 法 ， 该 搜索 入 行 地 由 频繁 k 项 集 得 到 频繁 (k+1) 项 集 ， 直 到 没有 频繁 项 集 
法 用 到 了 项 集 的 反 单 调 性 ， 即 以 “如 果 一 个 项 集 是 非 频 繁 的 ， 产生 。 本 文 第 一 阶段 利用 BitSet 存储 事务 序列 ， 并 以 BitSet 求 
那么 它 的 所 有 超 集 也 是 非 频繁 的 ”为 基础 ， 采 用 连接 ， 剪 枝 的 ”与 的 方式 代替 事务 集合 求 交 的 运算 ， 加 快 了 频繁 项 集 的 生成 速 


方式 产生 候选 项 集 ， 以 压缩 候选 项 集 的 数量 。 


数据 进行 多 次 遍历 ， 而 且 


于 反复 地 遍历 搜索 ,而 


率 ;第 二 阶段 则 } 


消耗 增 大 ， 降 低 了 算法 的 运算 效率 。 


2) Eclat 算法 


种 妇 


Eclatt 算 法 是 


于 垂 


直 数 据 结 


人 该] 


J 


度 计 数 即 为 TidSet 的 长 度 。 


该 算法 会 对 原始 
在 原始 数据 集中 ， 一 些 多 余 事务 被 用 
Apriori 算法 并 未 能 将 其 删 减 ， 致 使 IO 


吉 构 (项 的 名 称 item; 包 


项 的 事物 的 标志 符 的 集合 Tidset) 的 频繁 项 集 挖掘 算法 ， 
头 垂直 结构 数据 表示 可 以 避免 重复 遍历 原 数据 集 。 


该 算法 以 概念 格 理论 为 3 


项 集 的 支持 
基础 ， 采 用 


前 级 等 价 关 系 划 分 搜索 空间 ， 


备 一 定 条 件 的 两 


产生 候选 项 集 ， 


再 通过 对 应 TidSet 交叉 计数 来 计算 支持 度 ， 


个 项 集 的 


许 ” 得 
号 


三 阶段 使 


的 分 组 中 的 所 有 频繁 项 目 


2.1 第 一 阶段 


行 处 理 。 


其 中 ， 


保存 ，map a 


一 行事 


民 引 


集 


首先 ， 直接 把 存储 于 HDFS 中 的 数据 
务 会 将 数据 读 入 ， 
由 Tid 及 该 事物 所 包含 的 所 有 1] 


Eclat 算法 是 以 寻 


据 的 组 织 


方式 上 进行 


于 RDD 中 (Items 表示 


该 


了 


垂直 结构 存储 和 处 到 
预 处 理 。 


并 以 行 的 


以 Spark RDD 的 
乡 式 对 数据 进 


各 获得 的 数据 按 前 缀 分 发 于 不 同 的 计算 节点 ;第 
改进 的 Eclat 算法 在 各 计算 节点 上 求解 其 所 对 应 


区 式 


数据 的 。 所 以 


原 数据 以 (Tid,Items) 的 
事务 包含 的 项 )。 


首先 在 map 


页 组 


lB 式 保存 


阶段 将 每 
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个 事务 中 包含 的 所 有 项 及 对 应 导 


reduce 阶段 将 每 项 对 应 的 事务 编号 


大 于 最 小 支持 度 的 项 ， 产 生 频 繁 一 项 集 ， 


的 事务 序列 进行 存储 。 


传统 的 Eclat 算法 将 事务 以 (ItemSet，TidSet) 
但 在 求 候选 项 集 支 持 度 时 ， 
规模 庞大 , TidSet 的 交集 操 


操作 ， 


为 解决 上 述 


有 务 编号 


作 将 消耗 大 量 
问题 , SPEclat 算法 改变 了 数据 的 存 
以 (ItemSet，BitSeb 的 方式 进行 


巨大 的 数据 量 会 
时 间 , 影响 算法 效率 。 
赃 方式 ， 将 数据 
存储 ， 这 样 在 支持 度 计数 时 ， 可 


成 键 值 对 ， 
合并 起 来 。 统 计 导 


以 将 集合 求 交 的 运算 改进 为 BitSet 求 与 ， 避 免 了 大 数据 量 的 运 


算 。 
第 一 


阶段 主要 
分 隔 得 到 (Tid,Items) 键 值 对 ， 


务 编号 进行 聚合 ， 


于 最 小 阔 值 的 项 外 
法 的 伪 代 码 如 算法 1 所 示 。 
频繁 一 项 集 


算法 1 获取 


和 王 务 为 获取 频繁 一 


成 (ItemSet,BitSet) 键 
攻 键 值 对 进行 筛选 ， 得 到 频繁 一 项 集 ， 使 上 


For each transaction t(Tid,Items) in T 


flatMap(line,t) 


Foreach item I in 


out(I,Tid) 


ReduceByKey(I, Tid 


筷 


) 


while(Item I in partition) 


BitSet+=Tid 


filter( |BitSet| >=support) 


L1+=(I, BitSet) 


end 


存储 结构 的 转换 如 医 
代表 T, 中 是 否 包 含 I ， 


色 


若 包 含 ， rw 


一 项 外 


1 所 示 , 在 转换 后 


为 1 ， 


将 事务 中 的 项 进行 


并 以 事务 项 为 键 把 包含 该 项 的 事 
值 对 ,最 后 将 支持 度 大 


然后 在 
和 务 编号 数 
并 将 该 项 及 包含 该 项 


EB 式 存储 并 
导致 TidSet 


pr 


] 算 


的 存储 结构 中 ，z， 


否则 为 0。 此 时 ， 


如 果 需 要 计算 某 k 项 集 在 整个 数据 集中 的 4 
储 数 据 中 这 k 个 项 对 应 的 BitSet 求 与 ， 操 作 结果 就 是 所 有 包含 
这 个 k 项 集 的 事务 编号 ， 计 数 即 可 得 到 其 出 现 次 数 。 


现 次 数 ,只 需 将 存 


Tid ItemSet 

Sr re pe 了 和 

Ts | A A i 

Ts 五 0 0 A 再 总 

a | A A 
羽 > 


TidSet(BitSet) 


Ta4 


图 1 数据 存储 结构 转换 图 


| 其 和 干 
汉 兴 杰 ， GhinaXiy Spark 网 全 人 期 a 
2.2 第 二 阶段 
在 这 一 阶段 ， 主 要 实现 对 频繁 项 集 按 前 绥 进 行 划 分 。 以 频 
繁 二 项 集 的 产生 与 划分 为 例 , 首先 , 使 用 频繁 一 项 集 两 两 相交 ， 
得 到 二 项 候选 项 。 然 后 ， 使 用 对 应 的 两 个 BitSet 求 与 ， 并 对 新 


产生 的 BitSet 计数 , 得 到 频繁 二 项 集 , 将 频繁 二 项 集 以 (items， 
BitSet) 的 形式 存储 ， 并 根据 首 项 前 级 分 布 到 不 同 的 计算 节点 。 
因为 BitSet 求 与 操作 常数 时 间 即 可 完成 ， 故 频繁 项 集 产 生 的 消 
耗 是 非常 少 的 。 数 据 划 分 的 伪 代 码 如 算法 二 所 示 。 
在 各 节点 上 使 用 SPEclat 算法 并 行 挖掘 频繁 集 ， 需 要 迭代 
也 以 map/reduce 任务 来 实现 ,其 中 map0 方 法 实现 数据 的 划分 
reduce 阶段 实现 改进 后 的 Eclat 算法 。 在 mapper 和 reducer 之 
间 需 要 重 写 partition 过 程 以 确保 属于 同一 分 组 的 前 级 所 对 应 的 
列 被 划分 到 同一 个 计算 节点 。 

算法 2 按 前 级 划分 数据 


Read L(2) from RDD 


< 


map(items,Bitset) 
get the profix p from items 
out(p, (items, Bitset)) 
ReduceByKey(p, (items,Bitset)) 
get all C, from items 
Eclat( C， ) 
out(frequent Itemset with profix p) 
end 
2.3 第 三 阶段 
在 这 一 阶段 ， 将 在 各 个 计算 节点 中 针对 页 
行 地 以 自 底 向 上 的 形式 进行 迭代 ， 用 频繁 k 项 集 产生 频 
+1) 项 集 。 即 在 每 个 节点 中 ， 对 分 配 到 该 节点 的 项 集 进行 
连接 ， 产 生 候选 项 集 ， 之 后 进行 支持 度 计数 。 
丸 为 在 上 一 步 ， 数 据 已 经 被 转换 为 (TtemSet，BitSet) 
故 求 候 选项 集 支持 度 时 ， 可 使 用 在 同一 节点 的 两 个 自 连接 的 频 
繁 项 集 的 BitSet 求 与 来 对 候选 项 集 的 进行 计数 。 在 求 与 之 后 ， 
得 到 包含 该 候选 项 集 的 事务 序列 。 该 过 程 中 ， 利 用 BitSet 求 与 
的 快速 运算 代替 集合 之 间 求 交 运算 ， 能 节省 大 量 时 间 。 之 后 对 
生成 的 BitSet 进行 计数 ， 判 断 计 数值 是 否 大 于 最 小 支持 度 ， 若 
大 于 ， 则 将 候选 项 集 和 对 应 BitSet 组 成 的 键 值 对 ， 存 入 当中 。 


有 相同 前 缀 的 了 


多 式 ， 


算法 3 是 第 三 阶段 所 采用 算法 的 伪 代 码 。 
之 后 ， 对 生成 的 频繁 (k+1) 项 集 进行 再 划分 ， 迭代 式 地 调用 


SPEclat 算法 挖掘 频繁 项 集 ， 直 到 没有 更 多 的 频繁 
算法 3 生成 频繁 ktl1 项 集 


Read L(k) from RDD 


项 产生 。 


for each li in L(k) 
for each 1j in L(k) 
Itemset=(1li[1],1i[2],1i[3]..1i[k-1],1i[k],1j[k]) 
BitSet = 1i.BitSset NM 1j.BitSet 
if( |Bitset| >=support) 


L(k+1)+=(ItemSet,BitSet) 


201805.00211v1 


chinaXiv 


录用 稿 


end 
2.4 时 间 复 杂 度 分 析 
需要 对 一 些 值 进行 假设 ， 以 数学 公式 的 形式 表示 算法 的 时 
间 复 杂 度 。 假 设 原 数 据 集 中 事务 个 数 为 T， 计算 节点 数 为 N, t 
代表 频繁 一 项 集 的 个 数 。 原 算法 的 时 间 复 杂 度 为 
O(t^2+T/Nxa^2 )。 而 对 原 算法 进行 改进 后 的 SPEclat 算法 的 时 
间 复 杂 度 为 


3 ”相关 实验 与 分 析 


实验 室 的 分 布 式 计算 平台 台 计 算 机 搭建 而 成 ， 其 中 主 
节点 配置 为 17 3770 处 理 器 ，4GB 内 存 ，1TB 硬盘 。 计 算 节点 
配置 为 奔腾 e2140 处 理 器 ，1GB 内 存 ，250GB 硬盘 ,Spark 集群 
的 环境 参数 如 下 所 示 : Ubuntu:14.04;Hadoop version:2.4.0;Spark 


version:1.6.1。 

为 了 验证 SPEclat 算法 的 正确 性 ， 在 T10I4D100K、 
Pumsb_star 和 chess 数据 集 上 与 MREclat 的 处 理 结果 进行 了 对 
比 ， 实 验 表明 两 种 算法 得 到 的 结果 一 
3.1 加速 比 测试 

为 了 验证 SPEclat 算法 是 否 具 有 可 扩展 性 以 及 处 理 大 数据 
的 能 力 ， 拟 人 工 生成 大 小 为 10GB、20 GB、30 GB， 项 目 数 为 
80 的 三 个 不 同 大 小 的 数据 集 ， 用 于 下 一 步 实验 。 
加 速 比 指 同一 任务 在 单 处 理 器 和 多 处 理 器 系统 中 运行 消耗 
时 间 的 比率 ， 是 一 种 用 来 衡量 并 行 化 性 能 的 一 个 有 效 指 标 。 因 
此 为 了 考察 算法 的 并 行 化 性 能 ， 应 用 以 上 数据 进行 算法 的 加 速 
比 性 能 实验 。 实 验 对 3 个 数据 集 分 别 在 4，6，8 个 节点 上 运行 
算法 ， 实 验 结果 如 图 2 所 示 。 为 了 对 比 明 显 ， 加 入 了 线性 加 速 
比 结 


9 一 一 线性 加 速 比 

8 一 * 一 10G 数 据 量 

一 “一 20G 数 据 量 
一 一 30G 数 据 量 
乓 

3 

2 

1 

0 

全 点 数 2 
图 2 加 速 比 测试 
从 图 3 可 以 看 出 ， 对 于 同一 数据 集 ， 该 算法 运行 的 加 速 比 
会 随 着 节点 数 的 增加 而 增加 ， 由 于 节点 数 的 增加 使 得 节点 间 的 


通信 、 数 据 传递 所 消耗 的 时 间 逐 渐 增 加 , 故 增加 趋势 接近 线性 ， 
但 是 与 线性 加 速 比 有 一 定 差距 ， 而 且 随 着 节点 数 的 增加 差距 也 
越 大 。 对 比 不 同 数据 集 的 加 速 比 ， 当 数据 量 越 大 时 ， 加 速 比 会 
越 接 近 线 性 加 速 比 ， 原 因 在 于 : 面 对 数据 量 更 大 的 数据 集 ， 数 


nt 


实验 表明 ，SPEclat 


有 一 定 的 可 扩展 性 。 


据 计 算 所 消耗 的 时 间 占 总 耗 时 的 比例 相 比 于 小 的 数据 集 要 更 多 。 
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3.2 数据 的 可 扩展 性 测试 

这 一 节 通 过 比较 SPEclat 算法 与 MREclat 算法 在 不 同 数 所 
集 上 的 运算 效率 ， 验 证 SPEclat 的 数据 可 扩展 性 。SPEclat 是 
Eclat 算法 在 Spark 上 的 首次 实现 ， 而 MREclat 是 Eclat 算法 基 
于 MapReduce 的 经 典 实现 , 其 运行 效率 较 其 他 同类 算法 更 为 优 
越 ， 所 以 用 这 两 个 算法 进行 对 比 ， 以 验证 SPEclat 的 数据 可 扩 
展 性 。 

首先 使 用 上 一 实验 中 人 工 生 成 的 数据 集 ， 对 SPEclat 算法 
与 MREclat 算法 进行 了 对 比 实验 ， 以 评估 算法 的 运行 效率 。 其 
中 x 轴 代 表 人 工 数 据 的 数据 量 ，y 轴 则 表示 程序 执行 所 用 的 时 
间 , 支持 度 为 5%， 节 点 数 设 置 为 人 个 。 实 验 结果 如 图 3 所 示 。 


mi 


—e— SPEclat 一 一 MREclat 


耗 时 〈 分 钟 ) 
8 


qq 
0 
0 10G yp 30G 40G 
数据 集 大 小 


人 工 数 据 集 : min_ sup = $% 
图 3 人工 数据 测试 实验 


实验 的 统计 结果 表明 ,SPEclat 算法 较 MREclat 算法 而 言 ， 
在 性 能 上 取得 了 显著 地 提高 ， 并 且 随 着 数据 量 的 增长 ， 性 能 的 
提升 不 断 增加 ， 相 较 于 MREclat 算法 ， 且 SPEclat 算法 的 性 能 
具有 明显 优势 。 

为 了 进一步 验证 算法 的 数据 可 扩展 性 ， 对 SPEclat 算法 与 
MREclat 算法 分 别 进行 了 多 组 对 比 实验 。 使 用 公共 测试 数据 集 
T1014D100K、Pumsb_star 和 chess 以 保证 实验 的 客观 性 。 为 了 
确保 实验 结果 的 正确 性 ， 图 中 的 值 为 算法 运行 10 次 的 平均 值 。 

在 测量 算法 可 扩展 性 的 过 程 中 ， 将 节点 数 调整 为 人 个 ， 并 
分 别 将 测试 数据 复制 为 原 数据 集 大 小 的 2、3、4、5、6 倍 ， 通 
过 多 次 实验 测量 两 个 并 行 算 法 的 数据 可 扩展 性 。 实 验 结果 如 图 
4(a)~(c) 所 示 。 其 中 x 轴 代 表 副 本 数据 的 复制 次 数 ，y 轴 则 表示 
程序 执行 所 花费 的 时 间 。 从 图 中 可 以 看 到 ， 对 于 不 断 增长 的 数 
据 量 ，MREclat 算法 执行 所 消耗 的 时 间 近 似 于 直线 式 增长 ， 而 
SPEclat 算法 的 运算 时 间 增 长 较为 缓慢 , 基本 上 保持 水 平 。 同时 
SPEclat 算法 所 消耗 的 时 间 远 少 于 MREclat, 完成 计算 任务 的 速 
率 是 MREclat 算法 速率 的 20 倍 左右 。 
其 原因 是 SPEclat 算法 采用 基于 内 存 的 计算 方式 ， 可 将 数 
据 集 在 内 存 中 快速 地 进行 多 次 迭代 , 省 去 大 量 VO 操作 。 同 时 ， 
在 对 候选 项 集 进行 支持 度 计数 时 ,通过 对 数据 存储 结构 的 改变 ， 
实现 了 利用 BitSet 求 与 的 快速 运算 代替 集 合 之 间 求 交 运算 ， 优 
化 了 支持 度 计 数 的 计算 方式 ， 提 升 了 运算 效率 ， 且 相 较 于 
MREclat 算法 , SPEclat 算法 性 能 的 提升 会 随 着 数据 量 的 增加 而 
变 得 愈 发 明显 。 
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稿 冯 兴 杰 ， 等 Spark 而 并 行 Eclat 
1000 ， —e— SPEcit 一 一 MREclat 600 ， 一 一 全 一 一 SPEct 一 一 MREclat 1000 Me 
800 ] 5 800 
A 一 400 ] 六 
例 600 ] 合 合 ”600 
Ee ~ 300 ] 
在 400 ] ba 芭 400 
过 全 200 ] 随 
200 ] 100 J 200 
0 | 0 | 一- 一 一 一 一” 0 
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 
复制 数据 集 次 数 复制 数据 集 次 数 复制 数据 集 次 数 
(a) T1014D100K: min sup = 0.25% (b) Pumsb_star: min sup = 0.65% (c) chess: minsup = 35% 
图 4 数据 可 扩展 性 测试 
节点 的 可 扩展 性 测试 其 中 X 轴 代 表 集 群 中 节点 的 个 数 ，Y 轴 代 表 所 花费 的 时 间 。 分 
在 验证 SPEclat 算法 的 节点 可 扩展 性 时 ， 分 别 使 用 公共 测 ，” 析 三 实验 图 可 知 ， 随 着 集群 中 节点 数 的 增加 ，SPEclat 算法 的 耗 
试 数据 集 T1014D100K、Pumsb_star 和 chess 进行 实验 ， 并 调整 时 呈 近 似 线性 依次 递减 ， 结 果 表明 ， 该 算法 具有 良好 的 节点 可 


4 


集群 节点 数 为 4、6、8 个 ， 保 持 数据 集 的 大 小 不 变 ， 
SPEclat 算法 执行 所 消耗 的 时 间 ， 结 果 如 民 


分 别 记录 
5(a)、(b)、(c) 所 示 ， 


多 


一 “一 SPEclat 


扩展 性 。 


一 “一 SPEcilat 


一 “一 SPEclat 


95 26 25 

90 24 20 

85 ~ 
合 2 仿 上 5 

80 ~ 20 Ke 

75 3 18 芒 1 
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65 14 0 

4 人。 8 4 6 8 4 6 8 
节点 数 节点 数 节点 数 
(a)T10I4DI100K: min_ sup = 0.25% (b)Pumsb_star: min_sup = 0.65% (c) chess: min_ sup =35% 
图 5 节点 可 扩展 性 测试 
ee 1997, 1 (4): 343-373. 
结束 语 


本 文 提出 了 基于 Spark 的 Eclat 频繁 项 集 挖 掘 算法 SPEclat。 


针对 信息 化 时 代 产 生 的 海量 数据 ， 本 文 将 原 有 串 行 Eclat 算法 


进行 了 改进 ， 并 依托 Spark 


平台 将 其 


实现 并 行 化 ， 充 分 利用 


Spark 平台 基于 内 存 、 利 于 和 迭代 式 计算 的 特性 , 完成 了 算法 在 控 
加 海量 数据 时 性 能 上 的 突破 ， 


解决 了 其 并 行 化 所 遇 到 的 ， 人 


数据 的 划分 ， 生 成 频繁 项 集 时 产生 大 量 的 交叉 计算 等 问题 


终 利 用 人 造 数 据 以 及 公共 数据 集 加 以 实验 ， 证 明 针对 该 ee 
改进 是 行 之 有 效 的 ， 且 随 着 数据 量 的 不 断 增 长 ， 算 法 的 性 能 会 
有 更 加 显著 的 提高 。 
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